Residencia de Epidemiología
Existen variados formatos de archivos de datos
Pueden ser estructuras de licencia abierta (texto plano) o privada.
Las extensiones .csv y .txt son las más comúnes en versiones texto plano.
Otras extensiones pertenecen a sofwares específicos: xlsx a Excel, .sav a SPSS, .sas7bcat a SAS o .dta a Stata, por ejemplo.
Hay tantas funciones y paquetes en el lenguaje R como extensiones de archivos de datos.
Características a considerar respecto al almacenamiento:
Existen numerosos recursos en línea para el trabajo colaborativo que el equipo de trabajo puede considerar. Mencionamos dos grandes grupos:
El control de versiones en un paso más que integra el paradigma de la investigación reproducible dentro de la ciencia abierta.
Almacena ordenadamente un historial de cambios y quién los realizó.Es como un ‘deshacer’ sin límites.
Se pueden guardar metadatos del código escrito.
Invaluable para proyectos colaborativos donde diferentes personas trabajan paralelamente en el mismo código.
Permite realizar un seguimiento de los cambios realizados y puede combinar automáticamente el trabajo de las personas
git es un software de código abierto desarrollado originalmente por Linus Torvalds en 2005
Se puede instalar en Windows, Linux y Mac.
Se integra en la web con sitios como GitHub, GitLab, BitBucket, etc.
Se integra con IDE’s y editores como RStudio.
Es un sitio web que ofrece un servicio para almacenar repositorios en base a control de versiones que se integra con Git.
Se utiliza principalmente para alojar código y fuente de productos digitales (material educativo, libros, etc)
Fue desarrollado en 2008 y actualmente pertenece a Microsoft
Es de acceso gratuito y tiene también planes de pago con servicios especiales (mayor cantidad de colaboradores en repositorios privados, por ejemplo)
Datos brutos: archivo sin procesar que proviene directamente de su fuente de recopilación o captura de datos. Si es de fuente secundaria, este es el archivo que descarga o recibe del proveedor externo. No se comparten fuera del equipo de investigación, ya que suelen contener información identificable.
Datos depurados del estudio: conjunto de datos que se puede compartir públicamente. Sin eliminación de observaciones ni variables, salvo la anonimización.
Datos analíticos: conjunto de datos que se crea a partir del conjunto depurado de datos pero se modifica aún más para un análisis específico. Aquí aparecen las variables creadas en el análisis, posibles eliminaciones de observaciones y/o variables e imputaciones de valores perdidos.
Instituto Nacional de Epidemiología